生信入门:蛋白数据库UniProt介绍
今天给大家介绍一下UniProt这个全面的,高质量的,免费使用的蛋白质序列与功能信息数据库。
下面我分五部分给大家介绍一下:
蛋白质知识库(UniProtKB)
包含蛋白质序列、功能注释、分类、各种数据库交叉引用等信息知识库,记录包含两个部分,其中swiss-Prot是经过人工筛选和注释的,具有很高的准确性和可靠性; TrEMBL是利用计算机进行自动注释的结果。
蛋白质参考序列库UniRef
根据蛋白质序列相似程度构建的蛋白质参考序列库。可以快速的进行序列搜索和比对。
该数据库依据蛋白质的相似程度包含3个子库,分别是UniRef100、UniRef90、UniRef50, 同一性(identity)分别是:100%、90%和50%。
UniRef100数据库将不同物种中相同蛋白质序列和蛋白质片断数据整合在一起,形成一个单独的检索序列。
UniRef90数据库建立在UniRef100数据库的基础之上,需要序列相似性大于90%,共有片段(与最长的相比)大于80%。
UniRef50数据库又是以UniRef90为基础,需要序列相似性大于50%,共有片段(与最长的相比)大于80%。
根据研究的目的,可以针对性的选择不同的数据库进行检索。UniRef现在已广泛用于自动基因组注释、蛋白质家族分类、系统生物学、结构基因组学、系统发生分析、质谱分析等各个研究领域。UniRef中的聚类信息是会随着UniProtKB的更新而同步更新的。
UniProt档案库
UniParc是一个综合性的非冗余数据库,包含了不同数据库来源的所有的最新蛋白质序列和修订过的蛋白质序列。但是只有蛋白质的序列信息,而没有注释数据。UniParc中所有完全一致的序列都合并成了一条记录,避免了数据的冗余。蛋白质只有在指定的条件下才能够进行注释,序列完全相同的蛋白质如果属于不同的物种、组织或不同的发育阶段,其功能都有可能完全不同。
UniProt蛋白质组数据库
包含多个模式生物的全蛋白组表达信息。其中收集的Reference Proteome包含多个研究比较透彻或者生物研究中比较受关注的物种的最全面的蛋白质组序列信息。通过这个数据库可以进行一个物种的所有蛋白质序列的检索和下载。
检索条目支持类型
可以检索相关蛋白的文献,物种的分类、蛋白质的细胞定位、各种交叉引用数据库查询、疾病相关蛋白查询等等。
在接下来的一节中,我们会就如何搜索具备相似结构域或者功能基团的基因给大家进行讲解。
相关阅读: